#LLM 서빙

NVIDIA srt-slurm 기반 분산 LLM 벤치마크 검증 방법

이 튜토리얼은 NVIDIA의 srt-slurm 프레임워크를 활용하여 분산 LLM 서빙의 성능을 테스트하는 방법을 다룹니다. 선언적 YAML 설정을 재현 가능한 SLURM 워크플로로 변환하여, 클러스터 구성부터 분할된 프리필(prefill) 및 디코드(decode) 배포 모델링까지 전 과정을 실험해볼 수 있습니다. 실무자들이 대규모 언어 모델을 효율적으로 벤치마킹하고 배포 환경을 최적화하는 데 매우 유용한 가이드입니다.

엔비디아 LLM 서빙 벤치마크

r/LocalLLaMA • 89일 전

IMP 7

16대 DGX Spark 클러스터 구축 완료

엔비디아 DGX Spark 16대로 200Gbps 통신 속도의 고성능 클러스터 구축을 완료한 사례입니다. 통일 메모리(Unified Memory) 용량을 극대화해 대규모 언어 모델(GLM-5.1-NVFP4) 서빙을 수행하며, 향후 Mac Studio를 추가해 프리필과 디코드 단계를 분리할 계획입니다.

NVIDIA DGX Spark 클러스터 구축 통일 메모리

MarkTechPost • 100일 전

IMP 8

문샷 AI, 멀티 데이터센터 LLM 서빙 혁신

문샷 AI와 칭화대 연구진이 대규모 언어 모델(LLM)의 추론 방식을 혁신하는 멀티 데이터센터 서빙 아키텍처 'PrfaaS(Prefill-as-a-Service)'를 제안했습니다. 이 아키텍처는 연산 집약적인 프리필(Prefill) 작업을 별도의 클러스터로 분리하고, 하이브리드 어텐션 모델을 통해 크게 감소된 KVCache를 일반 이더넷망으로 전송하여 54% 높은 처리량을 달성합니다.

LLM 서빙 KVCache 분산 아키텍처